普通最小平方法 (OLS) 回歸的理論基礎,並透過 statsmodels
函式庫執行 CAPM、三因子與五因子模型。
1. 關鍵回歸假設 (Key Assumptions)
OLS 回歸的有效性基於以下幾個關鍵假設:
-
(UR.1) 線性關係: 母體模型是線性的:$Y = \beta_0 + \beta_1 X + \epsilon$。
-
(UR.2) 誤差項的條件期望為零: $E(\epsilon_i | X_j) = 0$。這意味著誤差項與解釋變數不相關。
-
(UR.3) 同質變異數與無自我相關:
-
同質變異數 (Homoskedasticity): 誤差項的變異數是常數,$Var(\epsilon_i | X) = \sigma^2_\epsilon$。
-
無自我相關 (No Autocorrelation): 不同觀測值的誤差項互不相關,$Cov(\epsilon_i, \epsilon_j) = 0$ for $i \neq j$。
-
(UR.4) (可選) 常態性: 誤差項服從常態分佈,$\epsilon | X \sim N(0, \sigma^2_\epsilon I)$。
2. OLS 估計式的特性:高斯-馬可夫定理
高斯-馬可夫定理 (Gauss-Markov theorem) 指出,在假設 (UR.1) - (UR.3) 成立的條件下,OLS 估計式是 BLUE (Best Linear Unbiased Estimator),即最佳線性不偏估計式。
-
線性 (Linear): 估計式是應變數 $Y$ 的線性組合。
-
不偏 (Unbiased): 估計式的期望值等於母體的真實參數值,$E[\hat{\beta}] = \beta$。
-
最佳 (Best / Efficient): 在所有線性不偏估計式中,OLS 估計式的變異數最小。
3. 統計推斷:假說檢定與信賴區間
-
假說檢定 (Hypothesis Testing): 用於判斷特定變數是否對應變數有顯著影響。我們設立虛無假設($H_0: \beta_i = 0$)和對立假設($H_1: \beta_i \neq 0$),並計算 t-統計量 來判斷是否拒絕 $H_0$。
-
p-value: 如果 p-value 小於顯著水準 $\alpha$(如 0.05),我們就拒絕虛無假設,認為該係數在統計上是顯著的。
-
信賴區間 (Confidence Intervals): 提供一個區間,我們有信心(例如 95%)真實的母體參數會落在此區間內。
4. 模型配適度:R-squared ($R^2$)
$R^2$ 衡量了模型中的解釋變數(如市場風險、SMB、HML 等)能夠解釋應變數(股票超額報酬)變異的百分比。
$$R^2 = \frac{\text{ESS}}{\text{TSS}} = 1 - \frac{\text{RSS}}{\text{TSS}}$$
其中 ESS 是解釋平方和,TSS 是總平方和,RSS 是殘差平方和。$R^2$ 越接近 1,表示模型的解釋能力越強。